#모델 아키텍처

점점 복잡해지는 LLM 아키텍처

초기의 단순했던 LLM 구조가 다양한 어텐션 변형과 MoE 등의 도입으로 인해 추천 시스템만큼 복잡해졌습니다. 성능 최적화가 필수적인 요구사항으로 자리 잡으면서 연구 개발의 유연성이 크게 떨어지는 문제가 발생하고 있습니다. 이를 해결하기 위해 초기부터 모듈의 조합과 검증이 용이한 구조 설계(FlexAttention 등)가 필수적입니다.

모델 아키텍처 LLM 최적화 FlexAttention

MarkTechPost • 47일 전

IMP 7

Zyphra, 최초 토큰 생성 시간을 혁신적으로 단축한 'Zamba2-VL' 공개

Zyphra가 12억, 27억, 70억 파라미터 규모의 오픈소스 비전-언어 모델(VLM) 패밀리인 Zamba2-VL을 공개했습니다. 이 모델들은 Mamba2 상태 공간과 Transformer를 결합한 하이브리드 아키텍처를 채택하여, 기존 동급의 Transformer 기반 VLM과 경쟁력 있는 성능을 유지하면서도 첫 번째 토큰을 생성하는 데 걸리는 시간(Time-to-First-Token)을 약 10분의 1 수준으로 획기적으로 단축했습니다.

비전-언어 모델 오픈소스 Zamba2

MarkTechPost • 66일 전

IMP 8

엔비디아, 기억 수정 최적화 선형 어텐션 모델 공개

엔비디아가 기존 선형 어텐션 모델들의 한계였던 '기억 덮어쓰기' 문제를 해결한 'Gated DeltaNet-2'를 발표했습니다. 이 모델은 기존의 단일 게이트를 키(Key) 축의 '삭제 게이트'와 값(Value) 축의 '쓰기 게이트'로 분리하여 메모리를 더 정교하게 제어합니다. 그 결과, Mamba-2, Mamba-3 등 기존 최고 성능 모델들을 벤치마크에서 모두 능가하는 우수한 성능을 입증했습니다.

선형 어텐션 (Linear Attention) 엔비디아 (NVIDIA) 대규모 언어 모델 (LLM)

MarkTechPost • 68일 전

IMP 7

OpenMythos로 순환 깊이 트랜스포머 구축

본 튜토리얼은 OpenMythos를 활용해 구글 코랩(Colab) 환경에서 엔드투엔드로 작동하는 고급 '순환 깊이 트랜스포머(Recurrent-Depth Transformer)' 워크플로우를 구축하는 과정을 다룹니다. 특히 MLA와 GQA 모델 변형을 생성하고 파라미터 수를 비교하며, 스펙트럼 반경(Spectral Radius)을 통해 순환 주입 행렬의 안정성을 검증하는 실무적 접근이 포함되어 있어 모델 아키텍처 설계에 중요한 참고자료가 됩니다.

트랜스포머 모델 아키텍처 MLA

MarkTechPost • 69일 전

IMP 9

바이트댄스, 이미지와 영상의 이해·생성·편집 통합 멀티모달 AI 'Lance' 공개

바이트댄스가 이미지와 영상의 이해, 생성, 편집 기능을 하나의 모델에서 모두 처리할 수 있는 통합 모델 'Lance'를 발표했습니다. 이 모델은 이해(Understanding)와 생성(Generation) 작업을 각각 분리된 전문가 네트워크로 처리하는 듀얼 스트림 혼합 전문가(MoE) 아키텍처를 채택하여 작업 간 간섭 없이 높은 성능을 발휘합니다. 단일 모델로 텍스트, 이미지, 영상이라는 세 가지 모달리티를 자연스럽게 아우르며 시각 AI 분야의 중요한 이정표를 제시합니다.

멀티모달 비디오 생성 이미지 생성

The Decoder • 75일 전

IMP 8

알리바바 Qwen-Image-2.0, 압축률 2배 향상 및 생성 스텝 40→4 단축

알리바바가 발표한 'Qwen-Image-2.0' 기술 보고서에 따르면, 새로운 VAE(변이형 오토인코더) 도입으로 공간적 압축률을 16배로 2배 향상시키고, 트랜스포머 아키텍처 최적화를 통해 이미지 생성 스텝을 기존 40단계에서 단 4단계로 줄였습니다. 이를 통해 고품질의 복잡한 이미지를 훨씬 더 빠르고 적은 컴퓨팅 자원으로 생성할 수 있게 되어, 실무적인 이미지 생성 파이프라인의 효율성을 획기적으로 높였다는 점에서 중요합니다.

이미지 생성 알리바바 모델 아키텍처

r/singularity • 78일 전

IMP 6

KV 캐시 대신 가중치에 넣는 BDH 메모리 아키텍처

전통적인 트랜스포머가 컨텍스트 길이가 길어질수록 겪는 KV 캐시의 메모리 문제를 해결하기 위해, 정보를 네트워크 가중치(그래프 전파)에 직접 저장하는 새로운 포스트 트랜스포머 아키텍처인 BDH의 개념과 작동 방식을 정리한 글입니다. 저자는 기존 모델들이 단기 기억에 의존하는 '전진성 건망증'을 겪고 있으며, 이를 해결하기 위해 어텐션을 선형화하는 동시에 키/쿼리 공간을 매우 높은 차원(희소 및 비음수 패턴)으로 확장해야 한다고 강조합니다.

포스트 트랜스포머 BDH 아키텍처 어텐션 메커니즘

The Decoder • 95일 전

IMP 8

오픈AI 수석 과학자 "AI 발전 의외로 느려…곧 비약적 도약"

오픈AI는 GPT-5.5 출시를 계기로 향후 AI 기술 발전 속도가 크게 가속화될 것이라고 발표했습니다. 자쿠브 파초키 수석 과학자는 최근 AI 발전이 의외로 더뎠다며 단기 및 중기적으로 상당한 수준의 개선이 이루어질 것이라고 강조했습니다. 이는 GPT-5.5가 기존 GPT-4o가 o시리즈의 기반이 되었던 것처럼 차세대 고성능 추론 모델의 핵심 토대가 될 것이라는 전망 때문입니다.

오픈AI GPT-5.5 추론 모델

MarkTechPost • 104일 전

IMP 7

UCSD·Together AI, 크기 2배 트랜스포머 맞먹는 루프 언어모델 'Parcae' 공개

UCSD와 Together AI 연구진은 기존 언어 모델 구조와 달리 동일한 파라미터 내에서 모델의 깊이를 재사용해 성능을 극대화하는 루프(Looped) 언어 모델 안정적 아키텍처인 'Parcae'를 발표했습니다. 이 모델은 파라미터와 학습 토큰을 무작정 늘리는 대신 추론 시 연산량을 늘리는 방식으로, 두 배 크기의 일반 트랜스포머와 맞먹는 품질을 달성합니다. 이는 엣지(edge) 환경 등 자원이 제한된 상황에서도 효율적으로 고성능 AI 모델을 배포할 수 있는 새로운 방향을 제시한다는 점에서 중요합니다.

대규모 언어 모델 모델 아키텍처 Parcae